Transformer赋能产业级实时分割！NeurIPS 2022顶会成果RTFormer带你一探究竟！

飞桨百度AI 2023-03-16

图像分割作为计算机视觉的三大任务之一，是智慧城市、工业制造、自动驾驶等领域的一项关键技术。相比图像分类和目标检测任务，图像分割预测输出目标在像素级别的精细信息，在计算机视觉任务中具有不可替代的作用。

图1 图像分割应用

近些年基于深度学习的图像分割技术飞速发展，使用 Transformer 结构的语义分割模型取得了令人惊艳的分割精度。但是由于计算量大、推理速度慢等问题，基于 Transformer 结构的语义分割模型无法很好地应用于实际业务中，所以基于 CNN 结构的语义分割模型依旧是产业界的主流。实际应用中，对于自动驾驶车端、手机/PC 端、机器人等设备，在实时运行情况下获得高精度分割结果是十分必要的。

图2 实时图像分割应用

针对上述问题，百度提出融合 CNN 和 Transformer 结构的实时语义分割模型 RTFormer。

🔗论文链接如下

https://arxiv.org/abs/2210.07124

RTFormer 模型采用双分支架构，创新设计了核心模块 RTFormer Block。该模块可以在 GPU 上高效运行，并且支持跨分支的信息交互。对比实验表明，RTFormer 在 Cityscapes 和 CamVid 数据集上取得 SOTA 指标，实现了最佳的精度和速度平衡。此外，PaddleSeg 开源 RTFormer 的官方代码和预训练模型，为大家提供了低门槛、全流程的试用体验。

图3 RTFormer 模型综合表现

行动力超强的小伙伴一定早已迫不及待了吧

🔗传送门链接

https://github.com/PaddlePaddle/PaddleSeg

记得 Star 收藏支持

RTFormer 目前在 develop 分支

https://github.com/PaddlePaddle/PaddleSeg/tree/develop/configs/rtformer

为避免在使用过程中遇到问题不能高效解决，快加入官方技术交流群吧！研发同学亲自答疑解惑，快来和小伙伴们一起探索一起进步吧！

RTFormer 模型全面解析

此前大多实时语义分割模型都是完全基于 CNN 结构，没有引入在很多视觉任务上都表现出强大能力的 Transformer 结构。其主要原因是 Transformer 结构在 GPU 上运行速度不理想，难以满足实时应用的需求。为了使用 Transformer 结构的全局上下文建模能力进一步提升实时语义分割模型的性能，我们提出了新的实时语义分割模型 RTFormer，其主要贡献包括以下几点。

■ 核心模块 RTFormer Block

我们提出了一种 GPU 上运行友好的 Attention Module，并且结合跨分辨率的 Cross-Attention 构建了双分辨率网络模块 RTFormer Block。

图4 GFA 模块示意

GPU-Friendly Attention（GFA）继承了 External Attention 线性计算复杂度的特性，但相比 External Attention 和其他线性 Attention 方案，GFA 在 GPU 上具有更好的性价比。

首先，GFA 通过使用普通矩阵乘操作替换 Multi-head 机制中的分组矩阵乘操作，实现了更适合在 GPU 上运行的 Attention 计算方式。同时 GFA 引入了 Group Normalization，这使得网络可以保持 Multi-head 机制中学习多样特征的能力。此外，由于普通矩阵乘更适合 GPU 推理，GFA 可以一定程度扩大参数数量，提升网络容量。

图5 RTFormer Block 架构

在 GPU-Friendly Attention 基础上，我们引入跨分辨率的 Cross-Attention 构建了双分辨率网络单元 RTFormer Block；
在低分辨率分支上，使用 GFA 建模全局上下文；
在高分辨率分支上，我们通过跨分辨率的 Cross-Attention 将低分辨率分支上学习到的全局特征广播到高分辨率分支上，从而使得高分辨率分支获得更强的语义信息。

■ RTFormer 实时语义分割模型

我们设计了一种将传统 CNN Block 和 RTFormer Block 组合的 Hybrid 模型结构，即 RTFormer 实时语义分割模型。

图6 RTFormer 模型整体架构

RTFormer 模型的前3个 Stage 使用 CNN Block，这样可以快速地提取图像的局部信息。在后2个 Stage 中，RTFormer 使用上面提到的 RTFormer Block 作为基本单元，从而高效地获取语义分割任务关注的全局上下文信息。

最终，RTFormer 达到了比纯 CNN 结构更好的精度速度平衡。我们提供了两种大小的模型 RTFormer-slim 和 RTFormer-base，其具体配置如下表：

■ 对比实验与分析

RTFormer 在主流公开数据集 Cityscapes 和 CamVid 上达到了 SOTA，同时在 ADE20K 和 COCOStuff 上验证了通用性。尤其在 CamVid上，RTFormer-base 在没有 Cityscapes 预训练情况下达到了 mIoU 82.5，取得了显著的提升。

图7 RTFormer在 Cityscapes与 CamVid 数据集上的表现

RTFormer 在 Cityscapes and CamVid 都达到了实时分割 SOTA 水平。尤其在 CamVid 上，在没有 Cityscapes 预训练的前提下，达到了速度190 FPS，精度 mIoU 81+的显著效果，明显超越了之前的实时分割方法。

下面是 CamVid 上的可视化对比图，可以看到 RTFormer 的全局上下文建模能力相比纯 CNN 网络结构更强。

图8 RTFormer 推理结果细节对比

图9 RTFormer 在 ADE20K

与 COCOStuff 数据集上的表现

从上面两个表中可以看出，RTFormer 不仅在城市道路场景表现较好，在更通用的场景上也显示了较好的泛化性能。在 ADE20K 上，相比纯 CNN 网络 DDRNet 和纯 Transformer 网络 SegFormer 都有较大的优势。

总结

NeurIPS 2022顶会模型 RTFormer 有效结合了 CNN 与 Transformer 结构的优点，针对 GPU 运行环境进行了精心的优化，实现了实时分割任务目前的 SOTA 结果。

有了 RTFormer，使用 Transformer 做实时分割不再是梦，小伙伴们还不行动起来？！快点加入技术交流群吧~

加入技术交流群

■ 入群福利

获取 PaddleSeg 团队整理的重磅学习大礼包

■ 引用说明

图1：辅助驾驶图片来源百度地图 APP AR 导航截图、3D 分割数据集来源于 MRISpineSeg spine dataset、人像抠图源于百度飞桨内部工作人员、合作伙伴提供质检数据样例、遥感图像源于 deepglobe 数据集

图2：合作伙伴提供巡检机器人图片及表盘数据

图3-9：源自 RTFormer 论文

WAVE SUMMIT+2022
WAVE SUMMIT+2022将于11月30日在深圳举办，欢迎大家扫码报名！关注飞桨公众号，后台回复关键词「WAVE」进入官网社群了解更多峰会详情！
【WAVE SUMMIT+2022报名入口】

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

Transformer赋能产业级实时分割！NeurIPS 2022顶会成果RTFormer带你一探究竟！

您可能也对以下帖子感兴趣

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

生成图片，分享到微信朋友圈

Transformer赋能产业级实时分割！NeurIPS 2022顶会成果RTFormer带你一探究竟！

您可能也对以下帖子感兴趣